The emergence of latency-critical AI applications has been supported by the evolution of the edge computing paradigm. However, edge solutions are typically resource-constrained, posing reliability challenges due to heightened contention for compute and communication capacities and faulty application behavior in the presence of overload conditions. Although a large amount of generated log data can be mined for fault prediction, labeling this data for training is a manual process and thus a limiting factor for automation. Due to this, many companies resort to unsupervised fault-tolerance models. Yet, failure models of this kind can incur a loss of accuracy when they need to adapt to non-stationary workloads and diverse host characteristics. To cope with this, we propose a novel modeling approach, called DeepFT, to proactively avoid system overloads and their adverse effects by optimizing the task scheduling and migration decisions. DeepFT uses a deep surrogate model to accurately predict and diagnose faults in the system and co-simulation based self-supervised learning to dynamically adapt the model in volatile settings. It offers a highly scalable solution as the model size scales by only 3 and 1 percent per unit increase in the number of active tasks and hosts. Extensive experimentation on a Raspberry-Pi based edge cluster with DeFog benchmarks shows that DeepFT can outperform state-of-the-art baseline methods in fault-detection and QoS metrics. Specifically, DeepFT gives the highest F1 scores for fault-detection, reducing service deadline violations by up to 37\% while also improving response time by up to 9%.
translated by 谷歌翻译
Edge Federation是一种新的计算范式,无缝地互连多个边缘服务提供商的资源。此类系统中的一个关键挑战是在受约束设备中部署基于延迟和AI的资源密集型应用程序。为了应对这一挑战,我们提出了一种新型的基于记忆有效的深度学习模型,即生成优化网络(GON)。与甘斯不同,成人使用单个网络既区分输入又生成样本,从而大大降低了它们的内存足迹。利用奇数的低内存足迹,我们提出了一种称为Dragon的分散性故障耐受性方法,该方法运行模拟(按照数字建模双胞胎)来快速预测和优化边缘联邦的性能。在多个基于Raspberry-Pi的联合边缘配置上使用现实世界边缘计算基准测试的广泛实验表明,龙可以胜过故障检测和服务质量(QOS)指标的基线方法。具体而言,所提出的方法给出了与最佳深度学习方法(DL)方法更高的F1分数,而与启发式方法相比,记忆力较低。这使得违反能源消耗,响应时间和服务水平协议分别提高了74%,63%和82%。
translated by 谷歌翻译
在工厂或房屋等环境中协助我们的机器人必须学会使用对象作为执行任务的工具,例如使用托盘携带对象。我们考虑了学习常识性知识何时可能有用的问题,以及如何与其他工具一起使用其使用以完成由人类指示的高级任务。具体而言,我们引入了一种新型的神经模型,称为Tooltango,该模型首先预测要使用的下一个工具,然后使用此信息来预测下一项动作。我们表明,该联合模型可以告知学习精细的策略,从而使机器人可以顺序使用特定工具,并在使模型更加准确的情况下增加了重要价值。 Tooltango使用图神经网络编码世界状态,包括对象和它们之间的符号关系,并使用人类教师的演示进行了培训,这些演示是指导物理模拟器中的虚拟机器人的演示。该模型学会了使用目标和动作历史的知识来参加场景,最终将符号动作解码为执行。至关重要的是,我们解决了缺少一些已知工具的看不见的环境的概括,但是存在其他看不见的工具。我们表明,通过通过从知识库中得出的预训练的嵌入来增强环境的表示,该模型可以有效地将其推广到新的环境中。实验结果表明,在预测具有看不见对象的新型环境中模拟移动操纵器的成功符号计划时,至少48.8-58.1%的绝对改善对基准的绝对改善。这项工作朝着使机器人能够快速合成复杂任务的强大计划的方向,尤其是在新颖的环境中
translated by 谷歌翻译
时空系统中有效,准确的事件预测对于最大程度地减少服务停机时间和优化性能至关重要。这项工作旨在利用历史数据来使用时空预测来预测和诊断事件。我们考虑道路交通系统的特定用例,事件采取异常事件的形式,例如事故或破碎的车辆。为了解决这个问题,我们开发了一种称为RADNET的神经模型,该模型预测系统参数,例如未来时间段的平均车辆速度。由于这种系统在很大程度上遵循每日或每周的周期性,因此我们将Radnet的预测与历史平均值进行比较与标记事件进行比较。与先前的工作不同,radnet在两个排列中渗透了空间和时间趋势,最后在预测之前结合了密集表示。这促进了知情推理和更准确的事件检测。具有两个公开可用和一个新的道路交通数据集的实验表明,与最先进的方法相比,所提出的模型的预测F1得分高达8%。
translated by 谷歌翻译
最近,已经提出了使用代理模型的智能调度方法,以便在异构雾环境中有效地分配易失性任务。确定性代理模型,深神经网络(DNN)和基于梯度的优化等进步允许达到低能量消耗和响应时间。然而,确定估计优化的客观值的确定性代理模型,不考虑可以导致高服务级别协议(SLA)违规率的服务质量(QoS)目标函数的不确定性。此外,DNN训练的脆性性质,防止这些模型达到最小的能量或响应时间。为了克服这些困难,我们提出了一种新的调度程序:GOSH I.E.使用二阶衍生物和异源塑料深层代理模型的梯度优化。 GOSH使用二阶梯度基于基于梯度的优化方法来获得更好的QoS并减少迭代的次数,以收敛到调度决定,随后降低调度时间。 GOSH而不是Vanilla DNN,使用自然参数网络来近似客观分数。此外,较低的置信度优化方法可以通过采用基于误差的探索来在贪婪最小化和不确定性降低之间找到最佳权衡。因此,GOSH及其共模的扩展GOSH *可以快速调整并达到比基线方法更好的客观评分。我们表明GOSH *达到比GOSH更好的客观分数,但它仅适用于高资源可用性设置,而GOSH则适用于有限的资源设置。 GOSH和GOSH的真实系统实验*在能源消耗,响应时间和SLA分别违反最多18,27和82%的情况下,对最先进的技术进行了显着改善。
translated by 谷歌翻译
工作流程调度是一个并行和分布式计算(PDC)的长期研究,旨在有效地利用计算资源来满足用户的服务要求。最近提出的调度方法利用边缘计算平台的低响应时间来优化服务质量(QoS)。然而,由于计算异质性,移动设备的延迟以及工作负载资源要求的挥发性,因此由于计算异质性而挑战,在移动边缘云系统中的调度工作流程应用是具有挑战性的。为了克服这些困难,它是必不可少的,但同时具有挑战性,开发一种有效地模拟QoS目标的长视力优化方案。在这项工作中,我们提出了MCDS:Monte Carlo学习使用Deep代理模型来有效地安排移动边缘云计算系统中的工作流程应用。 MCD是一种基于人工智能(AI)的调度方法,它使用基于树的搜索策略和基于深度神经网络的代理模型来估计即时动作的长期QoS影响,以实现调度决策的鲁棒优化。物理和模拟边缘云试验台的实验表明,MCD在能耗,响应时间,SLA违规方面可以改善最先进的方法,违规和成本分别至少为6.13,4.56,45.09和30.71%。
translated by 谷歌翻译
由于边缘设备的不可靠性以及现代应用的严格的服务截止日期,构建一个容错的边缘系统可以快速地对节点过载或故障发生的挑战是具有挑战性的。此外,不必要的任务迁移可能会强调系统网络,从而强调需要智能和解析故障恢复方案。现有方法通常无法适应高度挥发性的工作量或准确地检测和诊断故障以获得最佳修复。因此,需要一种坚固且主动的容错机制来满足服务级别目标。在这项工作中,我们提出了一种使用生成的对冲网络(GaN)的复合AI模型来预测集装箱边缘部署中的主动容错的抢占迁移决策。 Pregan使用串联的共同模拟与GaN一起学习几次异常的分类器,并主动预测可靠计算的迁移决策。基于Raspberry-PI的边缘环境的广泛实验表明,Pregan可以在故障检测,诊断和分类中优于最先进的基线方法,从而实现高质量的服务。与所考虑的基线中的最佳方法相比,Pregan完成了5.1%的准确故障检测,更高的诊断得分和23.8%的开销。
translated by 谷歌翻译
Recently, automated co-design of machine learning (ML) models and accelerator architectures has attracted significant attention from both the industry and academia. However, most co-design frameworks either explore a limited search space or employ suboptimal exploration techniques for simultaneous design decision investigations of the ML model and the accelerator. Furthermore, training the ML model and simulating the accelerator performance is computationally expensive. To address these limitations, this work proposes a novel neural architecture and hardware accelerator co-design framework, called CODEBench. It is composed of two new benchmarking sub-frameworks, CNNBench and AccelBench, which explore expanded design spaces of convolutional neural networks (CNNs) and CNN accelerators. CNNBench leverages an advanced search technique, BOSHNAS, to efficiently train a neural heteroscedastic surrogate model to converge to an optimal CNN architecture by employing second-order gradients. AccelBench performs cycle-accurate simulations for a diverse set of accelerator architectures in a vast design space. With the proposed co-design method, called BOSHCODE, our best CNN-accelerator pair achieves 1.4% higher accuracy on the CIFAR-10 dataset compared to the state-of-the-art pair, while enabling 59.1% lower latency and 60.8% lower energy consumption. On the ImageNet dataset, it achieves 3.7% higher Top1 accuracy at 43.8% lower latency and 11.2% lower energy consumption. CODEBench outperforms the state-of-the-art framework, i.e., Auto-NBA, by achieving 1.5% higher accuracy and 34.7x higher throughput, while enabling 11.0x lower energy-delay product (EDP) and 4.0x lower chip area on CIFAR-10.
translated by 谷歌翻译
Text-based games present a unique class of sequential decision making problem in which agents interact with a partially observable, simulated environment via actions and observations conveyed through natural language. Such observations typically include instructions that, in a reinforcement learning (RL) setting, can directly or indirectly guide a player towards completing reward-worthy tasks. In this work, we study the ability of RL agents to follow such instructions. We conduct experiments that show that the performance of state-of-the-art text-based game agents is largely unaffected by the presence or absence of such instructions, and that these agents are typically unable to execute tasks to completion. To further study and address the task of instruction following, we equip RL agents with an internal structured representation of natural language instructions in the form of Linear Temporal Logic (LTL), a formal language that is increasingly used for temporally extended reward specification in RL. Our framework both supports and highlights the benefit of understanding the temporal semantics of instructions and in measuring progress towards achievement of such a temporally extended behaviour. Experiments with 500+ games in TextWorld demonstrate the superior performance of our approach.
translated by 谷歌翻译
传统的数据湖泊通过启用时间旅行,运行SQL查询,使用酸性交易摄入数据以及可视化PBABYTE尺度数据集在云存储中,为分析工作负载提供了关键的数据基础架构。它们使组织能够分解数据孤岛,解锁数据驱动的决策,提高运营效率并降低成本。但是,随着深度学习接管常见的分析工作流程,传统数据湖泊对诸如自然语言处理(NLP),音频处理,计算机视觉和涉及非尾巴数据集的应用程序的有用程度降低。本文介绍了Deep Lake,这是一个开源湖泊,用于在Activeloop开发的深度学习应用程序。 Deep Lake保持了一项关键区别的香草数据湖的好处:它以张量的形式存储复杂数据,例如图像,视频,注释以及表格数据,并将数据迅速流式传输到网络上(a )张量查询语言,(b)浏览器可视化引擎或(c)不牺牲GPU利用率的深度学习框架。可以从Pytorch,Tensorflow,Jax,与许多MLOPS工具集成在一起的数据集。
translated by 谷歌翻译